Summary Statistics
Summary statistics বা সারাংশ পরিসংখ্যান হলো একটি ডেটা সেটের মূল বৈশিষ্ট্যগুলি দ্রুত এবং সহজভাবে বিশ্লেষণ করার জন্য ব্যবহৃত পরিসংখ্যান। এটি ডেটার সারাংশ তুলে ধরার জন্য ব্যবহৃত কিছু মৌলিক পরিসংখ্যানগত মেট্রিক্স সরবরাহ করে, যেমন:
1. Mean (গড়):
গড় হলো ডেটা সেটের সমস্ত মানের যোগফলকে ডেটা পয়েন্টের সংখ্যা দিয়ে ভাগ করার ফল। এটি ডেটার সাধারণ মাত্রা বা কেন্দ্রীয় প্রবণতাকে দেখায়।
- ফর্মুলা: যেখানে প্রতিটি ডেটা পয়েন্ট এবং মোট পয়েন্টের সংখ্যা।
2. Median (মধ্যম):
মধ্যম হলো ডেটা সেটের মাঝের মান। যখন ডেটা গুলি সাজানো থাকে, তখন মধ্যম হলো সেই মান যা মাঝখানে অবস্থান করে। যদি ডেটার সংখ্যা বিজোড় হয়, তাহলে একক মান হবে; যদি সোজা হয়, তাহলে দুটি মানের গড়।
3. Mode (সর্বাধিক পুনরাবৃত্ত মান):
Mode হলো ডেটা সেটের সবচেয়ে বারবার পাওয়া মান। এটি ডেটার প্রবণতাকে চিহ্নিত করতে সহায়ক।
4. Standard Deviation (প্রমিত বিচ্যুতি):
প্রমিত বিচ্যুতি হল একটি পরিসংখ্যান যা ডেটা পয়েন্টের গড় থেকে কতটুকু বিচ্যুত হতে পারে তা পরিমাপ করে।
- ফর্মুলা: যেখানে প্রতিটি ডেটা পয়েন্ট, গড়, এবং মোট ডেটা পয়েন্ট।
5. Variance (বিচ্যুতি):
Variance হলো standard deviation এর বর্গ। এটি ডেটার বিস্তার বা ছড়িয়ে পড়ার পরিমাণকে মাপতে ব্যবহৃত হয়।
- ফর্মুলা:
6. Range (পরিসীমা):
Range হলো ডেটা সেটের সর্বোচ্চ মান এবং সর্বনিম্ন মানের মধ্যে পার্থক্য।
- ফর্মুলা:
7. Quartiles and Interquartile Range (IQR):
Quartiles হলো ডেটা সেটকে চারটি সমান অংশে ভাগ করার পদ্ধতি। IQR হলো তৃতীয় Quartile () এবং প্রথম Quartile () এর মধ্যে পার্থক্য।
- IQR:
Correlation Analysis
Correlation analysis হলো দুটি বা তার বেশি ভেরিয়েবলের মধ্যে সম্পর্ক পরিমাপ করার প্রক্রিয়া। এটি সাহায্য করে বুঝতে যে এক ভেরিয়েবল অন্য ভেরিয়েবলের উপর কতটুকু প্রভাব ফেলছে।
1. Correlation Coefficient (পারস্পরিক সম্পর্ক সহগ):
Correlation coefficient একটি পরিসংখ্যানগত মান যা দুটি ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক নির্দেশ করে। এটি -1 থেকে 1 এর মধ্যে থাকে, যেখানে:
- +1: পূর্ণ ইতিবাচক সম্পর্ক (যেমন, এক ভেরিয়েবল বাড়লে অন্যটি বাড়ে)
- -1: পূর্ণ নেতিবাচক সম্পর্ক (যেমন, এক ভেরিয়েবল বাড়লে অন্যটি কমে)
- 0: কোনো সম্পর্ক নেই
Pearson’s Correlation Coefficient:
Pearson’s correlation coefficient সবচেয়ে সাধারণভাবে ব্যবহৃত পরিসংখ্যান যা দুটি ভেরিয়েবলের মধ্যে রৈখিক সম্পর্কের শক্তি পরিমাপ করে।
- ফর্মুলা: যেখানে এবং হল দুটি ভেরিয়েবলের মান এবং হল ডেটা পয়েন্টের সংখ্যা।
Spearman’s Rank Correlation:
Spearman’s rank correlation coefficient রৈখিক সম্পর্কের পরিবর্তে, দুটি ভেরিয়েবলের মধ্যে মন্থন সম্পর্ক (monotonic relationship) পরিমাপ করে।
Kendall’s Tau:
Kendall’s tau coefficient দুটি ভেরিয়েবলের মধ্যে সম্পর্কের পরিমাপ করে, বিশেষত যখন ডেটা শ্রেণীবদ্ধ করা হয়।
Correlation Matrix:
Correlation matrix হলো একাধিক ভেরিয়েবলের মধ্যে সম্পর্কের একটি টেবিল। এটি একসাথে সমস্ত ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক প্রদর্শন করে। এটি ডেটা বিশ্লেষণে সাহায্য করে যখন একাধিক ভেরিয়েবলের মধ্যে সম্পর্কের মূল্যায়ন করা দরকার।
Visualizing Correlation:
Correlation visualization গ্রাফিক্যাল উপস্থাপনা দেয়, যেমন:
- Heatmap: একটি সাধারণ টুল যেখানে একাধিক ভেরিয়েবলের মধ্যে সম্পর্কের শক্তি এবং দিক সম্পর্কিত মানগুলো রঙের মাধ্যমে প্রদর্শিত হয়।
- Scatter Plot: দুটি ভেরিয়েবলের মধ্যে সম্পর্ক দেখানোর জন্য scatter plot ব্যবহার করা হয়, যেখানে সম্পর্কের ধরন পরিষ্কারভাবে বোঝা যায়।
সারাংশ
- Summary Statistics: এটি ডেটা সেটের মৌলিক বৈশিষ্ট্য যেমন গড়, প্রমিত বিচ্যুতি, রেঞ্জ, এবং IQR পরিমাপ করে, যা ডেটার সাধারণ প্রবণতা এবং বৈচিত্র্য বুঝতে সাহায্য করে।
- Correlation Analysis: এটি বিভিন্ন ভেরিয়েবলের মধ্যে সম্পর্ক পরিমাপ করে এবং বিভিন্ন ভেরিয়েবলের মধ্যে রৈখিক বা মন্থন সম্পর্কের শক্তি ও দিক বিশ্লেষণ করে। Pearson, Spearman, এবং Kendall এর মত বিভিন্ন কৌশল আছে যা সম্পর্কের শক্তি পরিমাপ করতে ব্যবহৃত হয়।
এই বিশ্লেষণগুলি ডেটা সায়েন্স এবং মেশিন লার্নিং মডেল তৈরির ক্ষেত্রে ডেটার কাঠামো এবং সম্পর্ক বুঝতে সহায়ক।
Read more